(網經社訊)11月11日信息,Meta公司發(fā)布名為Omnilingual ASR的創(chuàng)新語音識別系統(tǒng),能夠處理超過1600種口語語言,其中包括500種此前從未被任何AI系統(tǒng)覆蓋的語言。這一突破性技術旨在解決全球語言資源不平等問題,推動人工智能向“通用轉錄系統(tǒng)”邁進。系統(tǒng)通過先進的機器學習模型,為資源匱乏的語言提供實用支持,標志著在消除語言障礙方面取得重大進展。
網經社教育臺(EDU.100EC.CN)了解到,Omnilingual ASR系統(tǒng)的核心優(yōu)勢體現在其高精度與強大擴展性上。測試數據顯示,系統(tǒng)在78%的支持語言中實現了字符錯誤率低于10個的高標準表現。對于擁有至少10小時訓練音頻的資源豐富語言,這一精度標準覆蓋率達到95%;即使是訓練資源不足10小時的低資源語言,也有36%達到相同標準,展現出系統(tǒng)對不同資源條件語言的適應能力。系統(tǒng)最具創(chuàng)新性的特點是引入“自帶語言”的情境學習功能,借鑒大語言模型技術,用戶只需提供少量音頻文本配對樣本,即可讓系統(tǒng)快速學習新語言,無需重新訓練或大量計算資源。這一技術理論上可將支持語言擴展至5400種,遠超當前行業(yè)水平。
為推動技術普及,Meta采取全面開源策略:以Apache2.0許可證發(fā)布基于PyTorch的fairseq2框架模型,提供從3億參數到70億參數的不同版本;同步發(fā)布包含350種代表性不足語言的大型轉錄語音數據集,采用知識共享署名許可協(xié)議。這些舉措將助力全球開發(fā)者定制本地化語音識別方案,特別為少數民族和瀕危語言群體提供技術支撐。該系統(tǒng)的推出不僅填補了語言技術覆蓋的空白,更通過開源生態(tài)建設促進全球語言平等,為教育、醫(yī)療、文化保護等領域的數字化轉型提供新可能,標志著人工智能技術在實現真正普惠性方面邁出關鍵一步。


































